@瞌睡虫
2年前 提问
1个回答

反爬虫爬取数据的措施有哪些

GQQQy
2年前

反爬虫爬取数据的措施有以下这些:

  • 在WAF中封杀相应的User-Agent,这是最简单的一种做法,但也最容易绕过,因为修改一下User-Agent就绕过了。

  • 在WAF中启用CC防护,限定指定时间段内请求的次数,但前提是采集量需要远远超过正常用户的访问量,不然就容易误伤正常用户。

  • 使用前端JavaScript执行解码或解密动作,提高爬取成本,因为爬取方需要执行同样的解码或解密动作,但对于直接模拟浏览器类型的爬虫来说,此门槛效果不大。

  • 限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。

  • 在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。